单细胞 scATAC-seq & scRNA-seq 双组学高级分析:ATAC_Monocle3 拟时序分析
前言
TIP
ATAC_Monocle3 是利用 Monocle3 工具基于 scATAC-seq 单组学数据来推断分化轨迹,拟时序分析用于重建细胞发育或分化过程的轨迹,揭示染色质可及性的动态变化。
在单细胞多组学研究中,scATAC-seq 数据不仅提供了染色质开放状态的信息,还可以通过拟时序分析揭示细胞发育或分化过程中的动态变化。Monocle3 通过选择 root 细胞,计算每个细胞到起点的距离,得到伪时间 (pseudotime),用于排序细胞的分化进程。在 scATAC-seq 分析中,伪时间可以直观反映染色质可及性的变化和基因调控网络的动态过程。
ATAC_Monocle3 的核心功能
轨迹重建
通过降维和图形学习,Monocle3 能够识别细胞在表观遗传空间中的连续路径,将离散的细胞状态连接成有向的发育轨迹。伪时间推断
基于指定的起始细胞 (root cells),Monocle3 计算每个细胞沿轨迹到起点的最短路径距离,赋予每个细胞一个伪时间值,反映其在分化过程中的相对位置。动态变化识别
通过比较不同伪时间点的染色质可及性模式,可以识别在分化过程中动态开放或关闭的调控元件,揭示关键转录因子结合位点的时序激活模式。
本篇文档旨在为单细胞多组学研究者提供一份详尽的 ATAC_Monocle3 技术指南,内容涵盖其基本原理、在 SeekSoul Online 云平台上的操作方法、结果解读及常见问题,帮助您快速掌握并应用该工具。
ATAC_Monocle3 理论基础
核心原理
ATAC_Monocle3 分析的核心思想是:利用 scATAC-seq 数据中染色质可及性模式的连续性,通过降维和图形学习识别细胞在表观遗传空间中的连续路径,构建有向的发育轨迹,并基于指定的起始细胞计算伪时间值。
细胞分化与表观遗传动态
细胞分化是一个连续的过程,涉及表观遗传状态的渐进性改变。在单细胞分辨率下,我们可以观测到:
- 不同分化阶段的细胞同时存在于样本中
- 染色质可及性模式随分化进程发生系统性变化
- 关键调控元件 (peaks) 的开放/关闭状态与细胞命运决定密切相关
scRNA-seq 与 scATAC-seq:如何选择拟时序分析数据类型
一胞双组学同时获得 scRNA-seq 和 scATAC-seq 两类数据,两者均可进行拟时序分析,不过它们反映的生物学层面有所区别:
- scRNA-seq:主要反映基因表达层面的动态变化,更适合用来刻画细胞功能和表型的转变——侧重“结果”视角。
- scATAC-seq:揭示染色质可及性的时间动态。其变化常常先于转录,比表达更早提示关键调控事件,适合挖掘调控机制和命运决定相关节点——侧重“原因”视角。
TIP
建议选择:
- 偏重基因表达/细胞功能变化分析 → 推荐 scRNA-seq
- 注重表观遗传调控或发育早期事件 → 推荐 scATAC-seq
同步分析并整合两类数据的伪时间,有助于更加全面地揭示细胞发育时序与调控机制。
关键算法与流程
Monocle3 对 scATAC-seq 数据的拟时序分析主要依赖 Cicero 包的扩展。针对单细胞染色质可及性数据的极度稀疏性,Monocle3 采用 LSI (Latent Semantic Indexing) 进行预处理,这是 scATAC-seq 分析的核心步骤。
分析流程包括以下关键步骤:
- 数据转换:将 Seurat 对象转换为 Monocle3 的 CDS (Cell Data Set) 对象
- 细胞聚类:使用 UMAP 降维结果进行细胞聚类
- 轨迹学习:通过图形学习算法识别细胞在表观遗传空间中的连续路径
- 伪时间计算:基于指定的 root cells,计算每个细胞沿轨迹到起点的最短路径距离
- 结果可视化:生成伪时间轨迹图和动态变化分析结果
关键参数说明
- reduction_method:指定降维方法。推荐使用 ATAC 数据对应的 UMAP 降维结果,并确保其名称为“UMAP”(目前 Monocle3 的
cluster_cells仅支持 UMAP 形式)。 - use_partition:是否考虑细胞分区。开启 (TRUE) 可用于解析存在多个独立发育轨迹的情况,有助于梳理复杂分化路径;如只关注单一路径可设置为 FALSE。
- root_cells:设置轨迹分析的起始细胞,需填写一个或多个 root 细胞的 ID。通常选用发育起点的细胞类型(如干细胞、前体细胞),合理设置 root 细胞有助于确保伪时间方向的生物学意义。
云平台操作指南
在云平台上,ATAC_Monocle3 分析流程被设计得直观易用。您无需编写代码,只需通过参数配置界面即可完成分析。

分析前的准备
TIP
ATAC_Monocle3 分析的成功与否,很大程度上取决于输入数据的质量和 root cells 的选择。在开始分析前,请务必确认:
- 数据已完成预处理:您的单细胞 ATAC 数据已经过标准的质控、降维、聚类和细胞类型注释。
- UMAP 降维结果:确保数据中包含 UMAP 降维结果,且名称为“UMAP”。
- 明确生物学起点:虽然 Monocle3 可以自动推断轨迹的起点,但如果您的研究中有明确的生物学起点(如干细胞、前体细胞等),了解这一点将有助于后续的结果解读。
- 选择合适的细胞亚群:拟时序分析应在具有潜在分化或转变关系的细胞亚群中进行。
参数详解
下表详细列出了云平台 ATAC_Monocle3 分析模块的主要参数及其说明。
| 参数名称 | 说明 |
|---|---|
| 任务名称 | 本次分析的任务名称,需以英文字母开头,可包含英文字母、数字、下划线和中文。 |
| 分组因子 | 细胞分群列名。 |
| 细胞类型 | 要分析的细胞类型。 |
| root | 选择作为 root 的细胞类型。 |
| 筛选因子 | 样品信息的列名。 |
| 筛选对象 | 要分析的样品名称。 |
| 允许存在多个不相连轨迹 | 用于确定是否使用 cluster_cell 期间计算的分区,从而学习每个分区中的不相交图。当 use_partition=FALSE 时,将在所有分区中学习单个图。默认值为 TRUE。 |
| downsample | 是否下采样。 |
| downsample_num | 下采样数量。 |
重要注意事项
TIP
- root cells 选择:选择 root cells 是拟时序分析的关键步骤。建议根据生物学先验知识选择起始细胞类型(如造血干细胞、前体细胞等),或在 UMAP 图中选择位于轨迹分支起点的细胞群体。
- 多轨迹处理:对于包含多个独立轨迹的数据(如多谱系分化),可以使用
use_partition = TRUE参数,Monocle3 会自动识别不同的细胞分区。 - 数据质量要求:确保输入数据的质量满足要求,低质量的 ATAC 数据会导致轨迹推断不准确。
- UMAP 降维结果:确保数据中包含 UMAP 降维结果,且名称为“UMAP”,否则 Monocle3 的
cluster_cells函数会报错。
操作流程
- 进入分析模块:在云平台导航至“高级分析”模块,选择“ATAC_Monocle3”。
- 创建新任务:为您的分析任务命名,并选择要分析的样本或项目。
- 配置参数:根据上述指南,选择要分析的细胞类型、分组信息、降维方式、root cells 等参数。
- 提交任务:确认参数无误后,点击“提交”按钮,等待分析完成。
- 查看结果:分析结束后,在任务列表中查看生成的分析报告和结果文件,包括伪时间轨迹图、动态变化分析等。
结果解读
ATAC_Monocle3 的分析报告包含丰富的图表和数据文件,以下是对核心结果的详细解读。
伪时间轨迹图
伪时间轨迹图展示了细胞在 UMAP 降维空间中的分布,以及根据伪时间值着色的结果:

图表解读
- 图中每个点代表一个细胞,黑色线表示拟时序推断得到的轨迹分支路径。
- 细胞点的颜色越深,代表越接近发育起始端;颜色越亮,代表细胞处于发育末端。
- 图中的白底圆圈编号表示轨迹的 root(起始)节点。
- 未与 root 细胞处于同一 partition 的离群细胞未被计算 pseudotime,显示为灰色。
分析要点
- 轨迹方向:通过观察伪时间值的分布,可以确定细胞分化的方向,从起点(颜色深)到终点(颜色亮)。
- 分支识别:轨迹图中的分支点代表细胞命运决定的关键节点,是研究的重点区域。
- 离群细胞:灰色显示的离群细胞可能代表不同的发育轨迹或技术噪音,需要结合生物学知识进行判断。
细胞类型轨迹图
该图展示了伪时间值在 UMAP 空间中的分布模式:

图表解读
- 图中每个点代表一个细胞,不同颜色标识不同的细胞群体,黑色线表示分析得到的轨迹分支路径。
- 黑底圆圈中的数字表示轨迹的分支节点,代表分化方向的分叉位置(可类比为树的枝丫);灰底圆圈表示终末分化状态,对应细胞命运的最终结果(类似树叶)。
- 圆圈内的数字为随机分配,不代表发育顺序高低;分化方向可结合伪时间值 (pseudotime) 进行判定。
分析要点
- 细胞类型分布:通过观察不同细胞类型在轨迹上的分布,可以验证轨迹的生物学意义。
- 分支点分析:分支节点是细胞命运决定的关键位置,应重点关注这些区域的染色质可及性变化。
- 过渡态识别:位于不同细胞类型交界处的细胞,可能是处于状态转变过程中的中间态细胞。
可及性随伪时间变化趋势
随时间可及性增加最显著的五个位点
对于感兴趣的 peaks,可以绘制其可及性沿伪时间的变化曲线:

该图展示了在伪时间轴上可及性增加最为显著的五个染色质区域,每个子图代表一个染色质可及性位点。x 轴表示伪时间进程,y 轴表示该位点的可及性水平。黑色曲线为平滑拟合线,直观显示了可及性随伪时间变化的整体趋势。
随时间可及性降低最显著的五个位点
通过差异可及性分析,可以识别在伪时间过程中显著变化的 peaks:

该图展示了在伪时间轴上可及性降低最为显著的五个染色质区域,每个子图代表一个染色质可及性位点。x 轴表示伪时间进程,y 轴表示该位点的可及性水平,黑色曲线是拟合的平滑线,显示随伪时间变化的总体趋势。
分析要点
- 动态调控元件识别:这些在伪时间过程中显著变化的 peaks 可能是关键的调控元件,值得进一步分析。
- 时序激活模式:通过观察可及性变化的时序模式,可以揭示关键转录因子结合位点的激活顺序。
- 功能注释:结合基因注释,可以识别受这些动态调控元件影响的靶基因。
结果文件列表
| 文件名 | 内容说明 |
|---|---|
pseudotime.pdf/png | 拟时序轨迹图 |
celltype.pdf/png | 细胞类型轨迹图 |
top_increasing.pdf/png | 随时间可及性增加最显著的五个位点 |
top_decreasing.pdf/png | 随时间可及性减少最显著的五个位点 |
注意事项
1. root cells 选择的重要性:选择 root cells 是拟时序分析的关键步骤,直接影响伪时间的方向和解读。建议根据生物学先验知识选择起始细胞类型,或在 UMAP 图中选择位于轨迹分支起点的细胞群体。
2. 多轨迹处理:对于包含多个独立轨迹的数据(如多谱系分化),可以使用 use_partition = TRUE 参数,Monocle3 会自动识别不同的细胞分区。也可以根据细胞类型注释,将数据分为不同的子集,分别进行拟时序分析。
3. 数据质量要求:确保输入数据的质量满足要求,低质量的 ATAC 数据会导致轨迹推断不准确。建议在分析前进行充分的质控和标准化处理。
4. UMAP 降维结果:确保数据中包含 UMAP 降维结果,且名称为“UMAP”,否则 Monocle3 的 cluster_cells 函数会报错。
5. 结果解读需谨慎:拟时序分析的结果需要结合生物学知识进行解读。伪时间值反映的是细胞在分化过程中的相对位置,而非真实的物理时间。
6. 与其他分析整合:拟时序分析结果可以与差异可及性分析、Motif 分析、多组学整合等多种分析结合,以更全面地揭示细胞发育的调控机制。
常见问题解答 (FAQ)
Q1:如何选择合适的 root cells?
A:选择 root cells 是拟时序分析的关键步骤,建议:
- 生物学先验知识:根据已知的生物学知识选择起始细胞类型(如造血干细胞、前体细胞等)
- 轨迹起点识别:在 UMAP 图中,选择位于轨迹分支起点的细胞群体
- 交互式选择:如果不指定
root_cells参数,Monocle3 会启动交互式界面,允许用户手动选择起始细胞 - 多轨迹分析:对于包含多个独立轨迹的数据,需要为每个轨迹分别指定 root cells
Q2:如何处理多个独立的发育轨迹?
A:对于包含多个独立轨迹的数据(如多谱系分化),可以采用以下策略:
- 分区分析:使用
use_partition = TRUE参数,Monocle3 会自动识别不同的细胞分区 - 分别分析:根据细胞类型注释,将数据分为不同的子集,分别进行拟时序分析
- 整合结果:分析完成后,可以将不同轨迹的伪时间值分别添加到 Seurat 对象中,便于比较
Q3:拟时序分析结果如何与其他分析整合?
A:拟时序分析结果可以与多种分析整合:
- 差异可及性分析:识别沿伪时间变化的 peaks,揭示动态调控元件
- Motif 分析:对差异 peaks 进行 motif 富集,识别关键转录因子
- 多组学整合:与 scRNA-seq 数据整合,揭示染色质可及性与基因表达的时序关联
- 功能注释:结合基因注释,识别受动态调控元件影响的靶基因
Q4:伪时间值与真实时间的关系是什么?
A:伪时间值反映的是细胞在分化过程中的相对位置,而非真实的物理时间:
- 相对位置:伪时间值越大,表示细胞越接近分化的终点
- 相对顺序:伪时间值可以用于排序细胞的分化进程,但不能直接转换为真实的时间单位
- 生物学意义:伪时间值有助于识别细胞分化的关键节点和动态变化
Q5:如何判断轨迹分析的质量?
A:判断轨迹分析质量的几个关键指标:
- 轨迹连续性:轨迹应该形成连续的路径,而不是分散的点
- 生物学合理性:轨迹的方向和分支应该符合已知的生物学知识
- 细胞类型分布:不同细胞类型在轨迹上的分布应该符合预期的分化顺序
- 伪时间分布:伪时间值应该在轨迹上形成合理的梯度分布
Q6:scRNA-seq 和 scATAC-seq 的拟时序分析有什么区别?
A:两者在生物学层面有所区别:
- scRNA-seq:主要反映基因表达层面的动态变化,更适合用来刻画细胞功能和表型的转变——侧重“结果”视角
- scATAC-seq:揭示染色质可及性的时间动态。其变化常常先于转录,比表达更早提示关键调控事件,适合挖掘调控机制和命运决定相关节点——侧重“原因”视角
- 建议:同步分析并整合两类数据的伪时间,有助于更加全面地揭示细胞发育时序与调控机制
参考资料
[1] CAO J, SPIELMANN M, QIU X, et al. The single-cell transcriptional landscape of mammalian organogenesis[J]. Nature, 2019, 566(7745): 496-502.
[2] PLINER H A, PACKER J S, MCFALINE-FIGUEROA J L, et al. Cicero predicts cis-regulatory DNA interactions from single-cell chromatin accessibility data[J]. Molecular Cell, 2018, 71(5): 858-871.
[3] TRAPNELL C, CACCHIARELLI D, GRIMSBY J, et al. The dynamics and regulators of cell fate decisions are revealed by pseudo-temporal ordering of single cells[J]. Nature Biotechnology, 2014, 32(4): 381-386.
